来源:中央广电总台中国之声

近日,在某开源代码托管平台上,一款以某知名教育博主为原型的AI技能包引发热议。

开发者宣称通过人工智能技术,完整复刻了其说话风格、思考方式和咨询逻辑,推出所谓“某知名教育博主的认知操作系统”,主打高考志愿填报等问题解答服务。


△AI技能包“张雪峰.skill”

这种将人的思想与风格提炼成程序的做法,被称为“人格蒸馏”。打着“免费开源”旗号的此类技术实践,是否涉嫌侵权?

AI复刻名人:浅层模仿暗藏信息失真

在该开源平台上,作者“花叔”称,这款skill(可复用的能力模块)是基于5本著作、15篇权威媒体深度采访、30多条一手语录、11个关键决策记录与完整人生时间线的深度调研。号称不是语录合集,是可运行的思维框架。此外,该作者还上传了郭德纲、马斯克、乔布斯等名人的模型。


△平台上显示的skill调研来源

记者在下载后,尝试使用该skill咨询几次高考志愿填报,发现其语言风格具有明显的“名师式表达特征”,但提供的信息并不准确,且会出现AI“幻觉”。

比如记者以考生身份提问:“理科600分想上985高校,推荐几个专业?”,该AI在语言风格上确实模仿得惟妙惟肖,直白且带着标志性的口语化表达,但它给出的核心信息却出现了严重的“幻觉”——它竟然建议考生去报考211高校北京邮电大学的计算机专业,而该专业的分数线远超众多普通985高校专业。当记者指出这一常识性错误后,该模型立刻陷入了连连道歉的窘境。

这种所谓的“完整复刻”,仅停留在语言风格的浅层模仿,信息准确度与市面上普通大模型并无明显差别。针对这种状况,记者试图联系该技能包的开发者“花叔”。但对方拒绝对此作出正面回应,仅表示自己只是用技术做了一个“免费开源的项目”,至于大家如何讨论和看待,他无法控制。

技术拆解:“人格蒸馏”本质是模仿脚本

开发者口中“无法控制”的免费项目,在底层逻辑上到底是如何运作的?该如何理解“.skill”这种技术形态?

中关村信息消费技术产业联盟副理事长包冉告诉中国之声记者,随着AI编程技术的普及和RAG(检索增强生成架构)的成熟,极大简化了开发流程。开发者无需具备深厚的编程功底,只需用自然语言下达指令,系统就能自动编写网络爬虫抓取目标人物的发言,本质上就是一个模仿脚本。

包冉介绍,我们每个人在数字时代留下的痕迹,都可能成为投喂给大模型的语料。但值得注意的是,目前的AI并不具备真正的“理解”能力,它更像是一个极其庞大且精密的概率计算器——它通过海量语料计算上下文序列中下一个词出现的概率。但模型本身并没有对这个真实世界的理解,也缺乏人类专家的举一反三、结合最新社会现实进行重构的能力。

更重要的是,当面临训练数据不足、知识盲区时,AI不会轻易判定“我不知道”,反而用极具逻辑性的语气,将概率上最相关的词语拼凑在一起,生成看似合理实则谬误的答案。

法律边界:免费开源并非侵权挡箭牌

开发者称该skill免费开源,这一理由在法律面前是否站得住脚?中国传媒大学文化产业管理学院法律系主任郑宁向记者拆解了其中的权利边界。首先,在著作权层面,法律的界定存在一定模糊地带。著作权法保护的是表达而不是思想,若是用到某人著作里的原话,或构成实质性相似,则属于著作权侵权。

针对开发者以免费开源作为推托,郑宁明确表示,这并不能成为规避侵权的挡箭牌。如果说模仿语言风格在著作权上尚有争议,那么在人格权益方面,这种未经授权的“蒸馏”行为则触碰了清晰的红线。

侵权风险客观存在,为何各类名人的“AI分身”依然在网络上层出不穷?在技术开源的浪潮下,我们能否叫停这种“人格蒸馏”?北京大学政府管理学院教授马亮认为,随着AI工具的普及,低成本实现的复刻已成为现实,只要不触碰法律红线,这类技术实践本身很难被禁止。

马亮指出,监管的真正核心,在于厘清“生成”与“使用”的边界。个人在封闭环境下的技术尝试是一回事,一旦将其推向公共网络进行广泛传播、用于谋利甚至制造欺骗,就必须面临严厉的追责。更重要的是引导大家正确使用AI,明确AI滥用带来的风险和个人责任。

记者/任梦岩